智能论文笔记

A generative recommender system with GMM prior for cancer drug generation and sensitivity prediction

Krzysztof Koras , Marcin Możejko , Paulina Szymczak , Eike Staub , Ewa Szczurek

分类：机器学习 | 人工智能

2022-06-07

高通量药物筛查测定法的最新出现引发了机器学习方法的密集开发，包括预测癌细胞系对抗癌药物的敏感性的模型，以及用于生成潜在药物候选者的方法。然而，尚未全面探索具有特定特性的化合物产生具有特定特性和同时建模其功效的概念。为了满足这一需求，我们提出了Vadeers，这是一种基于各种自动编码器的药物功效估算推荐系统。化合物的产生是由具有半监视的高斯混合模型（GMM）的新型自动编码器进行的。先验定义了在潜在空间中的聚类，其中簇与特定的药物特性相关联。此外，Vadeers配备了单元线自动编码器和灵敏度预测网络。该模型结合了抗癌药物的微笑弦表示的数据，它们对蛋白激酶的抑制作用，细胞系生物学特征以及细胞系对药物的敏感性的测量。评估的Vadeers变体在真实和预测的药物敏感性估计之间达到了较高的R = 0.87 Pearson相关性。我们以一种方式训练GMM先验，使潜在空间中的簇通过其抑制作用对应于药物的预计聚类。我们表明，学到的潜在表示和新生成的数据点准确地反映了给定的聚类。总而言之，Vadeers提供了一种全面的药物和细胞系特性模型及其之间的关系，以及引导的新型化合物。

translated by 谷歌翻译

混音是指基于插值的数据增强，最初是作为超越经验风险最小化（ERM）的一种方式。然而，它的扩展侧重于插值的定义及其发生的空间，而增强本身的研究较少：对于$ m $的小批量，大多数方法在$ m $对之间的插值与单个标量插值之间的插值因子$ \ lambda $。在这项工作中，我们通过引入Multimix来朝这个方向取得进展，Multimix插入了任意数字$ n $的元组，每个元组，长度$ m $，一个vector $ \ lambda $每个元组。在序列数据上，我们进一步扩展到所有空间位置上的密集插值和损失计算。总体而言，我们通过数量级以几乎没有成本来增加每个小批量的元素数量。通过在分类器之前的最后一层插值来可以通过插值。最后，为了解决因线性目标插值而引起的不一致之处，我们引入了一种自我鉴定方法来生成和插值合成目标。我们从经验上表明，我们的贡献导致对四个基准测试的最先进混合方法的显着改善。通过分析嵌入空间，我们观察到这些类更紧密地聚集并均匀地分布在嵌入空间上，从而解释了改善的行为。

translated by 谷歌翻译

从世界上任何地方拍摄的单个地面RGB图像预测地理位置（地理位置）是一个非常具有挑战性的问题。挑战包括由于不同的环境场景而导致的图像多样性，相同位置的出现急剧变化，具体取决于一天中的时间，天气，季节和更重要的是，该预测是由单个图像可能只有一个可能只有一个图像做出的很少有地理线索。由于这些原因，大多数现有作品仅限于特定的城市，图像或全球地标。在这项工作中，我们专注于为行星尺度单位图地理定位开发有效的解决方案。为此，我们提出了转运器，这是一个统一的双分支变压器网络，在整个图像上关注细节，并在极端的外观变化下产生健壮的特征表示。转运器将RGB图像及其语义分割图作为输入，在每个变压器层之后的两个平行分支之间进行交互，并以多任务方式同时执行地理位置定位和场景识别。我们在四个基准数据集上评估转运器-IM2GPS，IM2GPS3K，YFCC4K，YFCC26K，并获得5.5％，14.1％，4.9％，9.9％的大陆级别准确度比最新的级别的精度提高。在现实世界测试图像上还验证了转运器，发现比以前的方法更有效。

translated by 谷歌翻译

在确定最佳方法，机器学习或统计建模时，数据科学家和统计学家往往是赔率，以解决分析挑战。然而，机器学习和统计学建模比分析战场的不同侧面的对手更多。选择两种方法或在某些情况下使用两种情况都基于要解决的问题和所需的结果以及可用于使用的数据和分析的情况。基于类似的数学原理，机器学习和统计建模是互补的，但只需在整体分析知识库中使用不同的工具。确定主要方法应该基于要解决的问题以及经验证据，例如数据的尺寸和完整性，变量数，其假设或缺乏，以及预期的结果，例如预测或因果关系。良好的分析师和数据科学家应该在这两种技术和适当的应用中进行精通，从而使用正确的工具来实现所需的结果。

translated by 谷歌翻译